برخی نویسندگان داده کاوی را به عنوان ابزاری برای جستجو کردن اطلاعات سودمند در حجم زیادی از داده ها تعریف می کنند. برای انجام فرایند داده کاوی با زمینه های گوناگون تحقیقی مواجه میشویم، مانند پایگاه داده، یادگیری ماشین و آمار. پایگاه دادهها برای تحلیل کردن حجم زیادی از دادهها ضروری هستند. یادگیری ماشین، یک ناحیه هوش مصنوعی است که با ایجاد تکنیکهایی امکان یادگیری به وسیله تحلیل مجموعههای دادهای را به کامپیوترها میدهند. تمرکز این روشها روی داده سمبولیک است و با آنالیز دادههای تجربی سر و کار دارد. پایه آن تئوری آماری است. در این تئوری عدم قطعیت و شانس به وسیله تئوری احتمال مدل میشوند. امروزه بسیاری از روشهای آماری در زمینه داده کاوی استفاده میشوند. میتوان گفت که متن کاوی از تکنیکهای بازیابی اطلاعات، استخراج اطلاعات همچنین پردازش کردن زبان طبیعی استفاده میکند و آنها را به الگوریتمها و متدهای داده کاوی، یادگیری ماشین و آماری مرتبط میکند. با توجه به ناحیههای تحقیق گوناگون، بر هر یک از آنها میتوان تعاریف مختلفی از متن کاوی در نظر گرفت در ادامه برخی از این تعاریف بیان میشوند:
متن کاوی = استخراج اطلاعات: در این تعریف متن کاوی متناظر با استخراج اطلاعات در نظر گرفته میشود (استخراج واقعیتها از متن).